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摘 ZB. 为 提高 多 车 场 车 辆 路 径 问 题 (Multi-Depot Vehicle Routing Problem，MDVRP) 的 求解 效率 ， 提 出 了 端 到 端的 
深度 强化 字 习 框架 。 首 先 ， 将 MDVRP 建 模 为 马尔 可 夫 决 策 过 程 (Markov Decision Process，MDP)， 包 括 对 其 状态 、 
动作 、 收 益 的 定义 。 同 时 ， 提 出 了 改进 图 注意 力 网 络 (Graph Attention Network，GAT) 作 为 编码 器 对 MDVRP 的 图 表 
示 进 行 特 征 诅 入 编码 ， 设 计 了 基于 Transformer 的 解码 器 。 并 采用 改进 REINFORCE 算法 来 训练 该 模型 。 该 模型 不 
受 图 的 大 小 约束 ， 即 其 一 旦 完成 训练 ， 就 可 用 于 求解 任意 车 场 和 客户 数量 的 算 例 问 题 。 最 后 ， 通 过 随机 生成 的 算 
例 和 公开 的 标准 算 例 验证 了 所 提出 框架 的 可 行 性 和 和 有效 性 。 即 使 在 求解 客户 节点 数 为 100 的 MDVRP 上 ， 经 训练 的 
模型 平均 仅 需 2 毫秒 即 可 得 到 与 现 有 方法 相 比 更 具 优 势 的 解 。 
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Abstract: This paper proposed an end-to-end deep reinforcement learning framework to improve the efficiency of solving 
the Multi-Depot Vehicle Routing Problem (MDVRP) . There is a novel formulation of the Markov Decision Process (MDP) 
for the MDVRP, including the definitions of its state, action, and reward. Then, this paper exploited an improved Graph 
Attention Network (GAT) as the encoder to perform feature embedding on the graph representation of MDVRP, and designed 
a Transformer-based decoder. Meanwhile, this paper used the improved REINFORCE algorithm to train the proposed encoder- 
decoder model. Furthermore, the designed encoder-decoder model is not bounded by the size of the graph. That is, once the 
framework is trained, it can be used to solve MDVRP instances with different scales. Finally, the results on randomly generated 
and published standard instances verify the feasibility and effectiveness of the proposed framework. Significantly, even on 
solving MDVRP with 100 customer nodes, the trained model takes only two milliseconds on average to obtain a very 
competitive solution compared with existing methods. 
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0 引言 


随 着 电子 商务 和 交通 运输 产业 的 不 断 壮 大 ， 物 流 业 飞速 
发 展 ， 中 国 乃 至 世界 物流 经 历 了 连续 十 多 年 的 爆炸 式 增长 。 
例如 ，2021 年 染 乌 、 系 东 、 顺 丰 等 大 型 物流 公司 的 全 国 快 
递 业 务 量 突破 1083 亿 件 ， 随 看 构建 新 发 展 格 局 的 加 快 和 物 
流 需 求 的 增长 ， 未 来 我 国 物流 业务 量 仍 会 保持 较 快 的 增长 。 
同时 ， 物 流行 业 的 高 速 发 展 对 大 型 实时 物流 调度 系统 提出 了 
更 高 的 要 求 。 然 而 ， 物 流 配 送 产 生 的 运输 和 仓储 成 本 大 高 不 
下 。 基 于 物流 配送 现状 和 时 代 需 求 ， 寻 求 高 效 的 物流 配送 模 
式 受 到 了 学 界 和 业界 的 广泛 关注 。 多 和 车场 车 辆 路 径 问 题 
(Multi-Depot Vehicle Routing Problem, MDVRP) 具 有 广泛 的 应 
用 场景 ， 包 括 交 通 运 输 、 物 流 配 送 和 快递 分 发 等 实际 情况 ， 
探索 该 问题 的 高 效 求解 方法 对 我 国 供应 链 发 展 具有 重要 的 理 
论 和 现实 意义 。MDVRP 问题 属于 车 辆 路 径 问 题 (Capacitated 
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Vehicle Routing Problem, CVRP) 的 一 个 变 体 。 由 于 CVRP 已 
是 NP-hard 问题 ， 而 相 比 单车 场 的 CVRP 而 言 ，MDYVRP 的 
解 空 间 更 加 庞大 。 因 此 ，MDVRP 也 属于 NP-hard 问题 。 
求解 MDVRP 的 传统 方法 主要 包括 精确 算法 、 多 项 式 时 
则 近似 算法 、 元 启发 式 算法 。 精 确 算法 能 够 求 得 最 优 解 ， 但 
由 于 其 NP-hard 性 质 很 难 应 用 于 求解 50 个 客户 以 上 的 问题 
上 站。 多 项 式 时 间 近 似 算法 通常 能 够 得 到 有 质量 保证 的 解 ， 但 
最 优 性 保证 较 纶 ， 甚 至 不 能 得 到 该 问题 的 局 部 最 优 解 。 元 局 
发 式 算法 ， 例 如 儿 群 算法 由、 蚁 群 优化 算法 中 、 蝙 电 算 法 多 
和 变 邻 域 搜索 算法 申 ， 由 于 其 高 性 能 被 广泛 使 用 ， 但 通常 需 
要 针对 特定 的 问题 定制 和 专业 的 领域 知识 中， 并 且 难 以 在 多 
项 式 时 间 内 寻找 到 大 规模 问题 的 较 优 解 。 以 上 三 种 方法 很 少 
利用 优化 问题 的 共同 特征 ， 经 党 反复 求解 相同 类 型 问题 的 算 
例 ， 对 于 这 些 算 例 可 以 认为 目标 函数 或 约束 中 的 系数 值 是 从 
相同 的 基础 分 布 中 采样 所 得 中。 尽管 出 现 了 大 量 的 求解 策略 ， 
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但 求解 效率 仍然 有 进一步 的 提升 空间 和 基于 更 加 高 效 的 求解 
框架 搭建 的 必要 。 因 此 ， 引 入 学 习 的 方法 以 高 效 寻 找 接 近 最 
优 解决 方案 尤为 重要 。 

近年 来 ， 越 来 越 多 的 研究 将 深度 强化 学 习 (Deep 
Reinforcement Learning, DRL) 技 术 应 用 于 求解 组 合 优化 问题 ， 
并 取得 了 突破 性 进展 。 表 1 对 现 有 基于 强化 学 习 求解 路 径 问 
题 的 方法 进行 了 总 结 。 强 化 学 习 可 以 进一步 分 为 基于 模型 的 
和 无 模型 的 方法 。 而 无 模型 强化 学 习 方 法 可 以 分 为 Value- 
based 和 Policy-based 的 方法 或 者 两 者 的 结合 (Actor-critic)。 
此 外 ， 按 路 径 问 题 可 以 分 为 旅行 商 问 题 (Travelling salesman 
problem, TSP)、CVRP 和 MDVRP。 

表 1 求解 路 径 问题 的 深度 /强化 学 习 方 法 汇总 


Tab. 1 Survey of deep/reinforcement learning methods in solving 
routing problems 
路 径 问 题 文献 网 络 结构 方法 类 型 
文献 [8] Transformer 无 模型 的 RL, Actor-Critic 
文献 [9] NN 无 模型 的 RL, Policy-Based 
文献 [10] GPN 无 模型 的 分 层 RL, Policy-Based 

— 文献 [11] GAT 无 模型 的 RL, Actor-Critic 
文献 [12] GCN 无 模型 的 RL, Given Model 

文献 [13] ”GAT+ 注 意 力 机 制 无 模型 的 RL, Actor-Critic 
文献 [14] Transformer 无 模型 的 RL, Policy-Based 
文献 [15] GNN 无 模型 的 RL, Policy-Based 

文献 [16] LSTM+ 注 意 力 机 制 无 模型 的 RL , Actor-Critic 

文献 [17] LSTM 无 模型 的 RL, Actor-Critic 

文献 [8] Transformer 无 模型 的 RL, Actor-Critic 

文献 [18] LSTM+ 注 意 力 机 制 无 模型 的 RL, Actor-Critic 

CVRP 文献 [19] NN 无 模型 的 RL, Actor-Critic 
文献 [20] GAT+GRU 无 模型 的 RL, Actor-Critic 

文献 [13] ”GAT+ 注 意 力 机 制 无 模型 的 RL, Actor-Critic 

文献 [21] GAT+GRU 无 模型 的 RL, Actor-Critic 

文献 [22] Transformer 无 模型 的 RL, Actor-Critic 
URS SCA [23] Transformer 无 模型 的 RL, Actor-Critic 


本 文 RE-GAT-Transformer 无 模型 的 RL, Actor-Critic 
ik: 在 网 络 结 构 列 , LSTM: long short-term memory; NN: neural 
networks; GRU: gate recurrent unit; GPN: graph pointer network. 

大 多 数 基于 DRL 的 应 用 集中 在 路 径 问 题 ， 如 TSP 和 
VRP. Vinyals 等 R41 引入 了 sequence-to-sequence 模型 指针 网 
络 (PtrNeb 的 监督 学 习 框架 来 训练 求解 TSP 等 组 合 优化 问题 ， 
该 模型 通过 Softmax 注意 力 机 制 (指针 ) 来 选择 输入 序列 中 的 
元 素 作 为 输出 的 递归 架构 。Bello 等 23 引 入 了 Actor-Critic 风 
格 的 深度 强化 学 习 算 法 以 无 监督 的 方式 训练 PtrNet 来 求解 
TSP， 并 且 其 性 能 在 多 达 100 个 节点 的 TSP 上 优 于 以 前 的 大 
多 数 近 似 算 法 。Nazari 等 Ll 在 Bello 的 框架 上 进行 了 扩展 以 
解决 VRP. 

包括 VRP 在 内 的 大 多 数组 合 优 化 问题 都 具有 图 结构 史 ]， 
可 以 很 容易 地 通过 现 有 的 图 舱 入 或 图 网 络 舱 入 技术 来 建 模 ， 
将 图 信息 敬 入 到 连续 的 节点 表示 中 。 图 神经 网 络 的 最 新 发 展 
可 以 用 于 网 络 设计 ， 因 为 它 在 信息 嵌入 和 图 拓扑 的 信念 传播 
方面 具有 很 强 的 能 力 悦 。 然 而 ， 上 述 工 作 中 使 用 的 sequence- 
to-sequence 神经 网 络 结构 不 能 充分 利用 并 提取 该 问题 的 图 结 
构 信 息 ， 例 如 图 中 节点 包含 客户 的 位 置 和 和 需求 信息 、 边 包含 
权重 信息 。 作 为 处 理 非 欧 氏 数 据 和 捕捉 图 结构 信息 的 有 力 工 
有 具 ， 图 神经 网 络 (Graph Neural Network, GNN) 近 年 来 得 到 了 
ZPT 

近年 来 基于 GNN 的 近似 求解 器 经 过 训练 后 ， 其 算法 时 
间 复 杂 度 明显 优 于 传统 的 运筹 优化 算法 。Li 等 “9 应 用 图 卷 
积 网 络 (GCN) 模 型 PI 以 及 引导 树 搜索 算法 来 解决 基于 图 的 组 


坤 ， 等 : 基于 End-to-end 深度 强化 学 习 的 多 车 场 车 辆 路 径 优化 


第 39 卷 第 10 期 


合 优化 问题 ， 如 最 大 独立 集 和 最 小 顶点 履 盖 问题 。Dai SUI 
通过 GNN 对 问题 算 例 进行 编码 ， 与 序列 到 序列 模型 相 比 ， 
图 神经 网 络 具 有 节点 顺序 不 变性 ， 更 好 地 反映 了 TSP 的 组 合 
结构 ， 他 们 使 用 DQNUSHJIZR structure2vec [E ifc A B HDA, 
受 Transformer 染 构 的 激励 ，Kool 等 由 提出 了 注意 力 模 型 
以 解决 多 种 组 合 优 化 问题 ， 并 在 策略 梯度 算法 中 使 用 
Rollout 基线 显著 的 改善 了 小 规模 路 和 丛 问 题 的 求解 结果 。 
Nowak 等 B11 以 监督 学 习 的 方式 使 用 深度 GCN 通过 高 度 并 行 
的 波束 搜索 以 非 自 回归 的 方法 构建 有 效 的 TSP 图 表示 并 输出 
行程 。Drori 等 上 开发 了 新 的 框架 来 解决 图 上 的 组 合 优 化 问 
题 ， 该 框架 运用 (Graph Attention Networks, GAT) 求 解 众多 
组 合 优化 问题 ， 他 们 称 该 框架 具有 从 小 图 上 的 训练 到 大 图 上 
的 测试 和 从 随机 图 上 的 训练 到 在 现实 世界 的 图 上 测试 的 泛 化 
性 能 。 

然而 大 多 数 机 器 学 习 方 法 肾 焦 于 求解 单车 场 的 车 辆 路 答 
问题 ， 对 于 多 车 场 车 辆 路 径 问 题 的 研究 较 少 。 王 万 民 等 [3 
基于 多 头 注 意 力 机 制 设 计 了 多 智能 体 强 化 学 习 框 架 求解 
MDVRP， 并 利用 策略 梯度 算法 进行 训练 ， 他 们 的 实验 结 
表明 所 提出 的 多 智能 体 深度 强化 学 习 模 型 及 其 与 搜索 策略 的 
结合 能 够 快速 获得 高 质量 的 解 。 然 而 ， 文 献 [23] 没 有 验证 其 
训练 后 的 模型 泛 化 到 不 同 规模 算 例 的 性 能 ， 及 泛 化 到 真实 世 
界 算 例 ( 标 准 算 例 ) 的 性 能 。 相 反 ， 本 文 提出 的 编码 器 -解码 
器 模型 不 受 问 题 规模 ( 即 车 场 和 客户 数 ) 的 约束 ， 即 经 过 训练 
的 模型 可 适用 于 任意 车 场 和 客户 数 的 算 例 ， 旦 能 够 在 坚 秒 级 
给 出 解决 方案 。 该 框架 具有 较 强 的 泛 化 性 能 。 通 过 对 随机 生 
成 数据 集 的 测试 ， 验 证 了 该 框架 的 有 效 性 。 此 外 ， 通 过 
VRPLIB 的 标准 算 例 测 实验 实验 证 了 该 框架 具有 从 随机 算 例 
训练 到 真实 世界 算 例 测试 的 泛 化 能 

以 上 基于 GNN 的 Learning-based 方法 激励 本 文 探 索 其 
在 求解 MDVRP 中 的 潜力 。 提 出 了 基于 端 到 端 (End-to-end) 的 
深度 强化 学 习 框架 用 于 高 效 求 解 MDVRP。 在 该 框架 中 ， 首 
先 将 MDVRP 建 模 为 马尔 可 夫 决 策 过 程 (Markov Decision 
Process, MDP)。 本 文 提 出 了 残 差 - 边 -图 注意 力 网 络 (Residual 
edge graph attention network, RE-GAT) 模 型 作为 编码 器 提取 髓 
入 MDVRP 图 表示 的 状态 特征 ， 该 模型 是 对 图 注意 力 网 络 
(graph attention network, GAT) 的 改进 。GAT 在 提取 图 结构 信 
因 的 过 程 中 仪 考虑 节点 的 信息 忽视 了 边 的 信息 ， 而 边 的 特征 
可 以 为 学 习 寅 略 提 供与 优化 目标 相关 的 更 多 直接 信息 (如 加 
权 距 离 )。 此 外 ， 同 时 输入 节点 和 边 信息 有 利于 挖 据 不 同 节 
点 之 间 空 间 邻 接 关 系 的 特征 。 提 出 的 RE-GAT 模型 将 
MDVRP 图 表示 中 节点 和 边 ( 如 权重 ) 的 信息 进行 融合 并 更 新 ， 
并 在 层 与 层 之 间 添 加 了 残 差 连接 有 效 地 防止 了 深层 模型 中 梯 
上 度 消 失 和 模型 退化 的 问题 。 此 外 ， 还 基于 Transformer 模型 
设计 了 解码 硕 用 于 求解 过 程 中 高 效 地 预测 和 节点。 所 提出 的 编 
码 器 -解码 器 模型 一 经 训练 即 可 适用 于 任意 车 场 和 客户 数量 
的 算 例 ， 且 能 够 在 毫秒 级 给 出 路 径 优化 方案 。 换 言 之 ， 该 框 
架 可 作为 一 种 线 下 训练 、 线 上 测试 的 实时 优化 框架 。 

为 验证 该 框架 的 可 行 性 和 有 效 性 ， 本 文 设 计 了 随机 生成 
的 算 例 对 框架 进行 训练 和 测试 。 此 外 ， 通 过 VRPLIB 标准 算 例 
测试 该 框架 的 泛 化 性 能 ， 并 与 最 新 的 基于 机 器 学 习 方 法 和 元 启 
发 式 算 法 进行 对 比 以 验证 所 提 框 架 的 优越 性 。 最 后 ， 通 过 实验 
验证 并 分 析 了 框架 在 训练 和 测试 阶段 运行 时 间 的 复杂 度 。 
1 qe 

一 般 地 ，MDVRP 可 以 描述 为 具有 容量 限制 的 一 辆 车 问 
需求 有 限 的 多 个 客户 运送 货物 ， 当 和 车辆 载 物 用 完 或 不 满足 客 
户 需 求 时 返回 仓库 ,其 目标 是 在 满足 所 有 客户 需求 的 基础 上 ， 
使 得 总 路 线 长 度 最 小 化 ， 几 1 展示 了 有 具有 两 车 场 的 MDVRP 


示意 图 。 本 文通 过 无 向 图 G=(V,E,W) 来 定义 MDVRP， 其 中 
节点 包括 客户 和 多 个 车 场 i= 科 …k,k+1.…,m} 表示 其 原始 特征 
mn， 包括 该 节点 的 坐标 nw 和 需求 信息 2 。 其 中 ，i={…, 
RREZE A. i-k ond RERUM Am. D A 
Lie(kcL...m) 的 贷 物 需求 为 6， 其 中 0<56<D， 且 D>0 表 
示 和 车 辆 的 容量 。 假 设 车 场 的 需求 5=0,ie{l...,k} 。 
a; ek,ijeV,izj 表示 从 节点 i 到 节点 j 的 边 ，4@eW 表示 的 距 
离 信 息 。 车 场 和 客户 节点 坐标 均 从 单位 平方 [uljx [01] rp B 
机 生成 ， 即 对 客户 节点 数量 为 20. 30. 50 的 问题 ， 本 文 分 
别 生 成 n=20+k、50+ 太 100+k 个 节点 ， 与 之 三 个 规模 问题 相对 
应 的 车 辆 容量 为 30、40、50， 每 个 客户 节点 需求 在 {1…,9} 
中 随机 产生 。 此 外 ， 将 客户 节点 需求 归 一 化 到 [0 中 之 间 ， 和 车 
辆 容量 D 相应 地 变换 为 3、4、5。 


S 4 
LE s 
Qo TN i i Lo A Q es 
7 [ess] | nd 客户 
- . fíe4 Q0 
2 L XN Iu 本 
gy Se 、 EL y a| 车 辆 
i e gj s 
ouo in 


图 1 MDVRP 示意 图 
Fig. 1 The description of MDVRP 
Ak 38 LA BUB ERSTEREE A] ê=) 表示 该 问题 的 解 ， 
KB Aes JEH AAi, vrt 。 本 文 的 目标 是 在 给 定 问 
题 算 例 的 情况 下 找到 问题 的 解 和 过， 使 得 每 个 客 己 节点 只 能 
访问 一 次 (车 场 市 点 可 以 多 次 访问 ， 即 有 z>m)， 并 且 忌 的 路 
线 长 度 最 小 。 排 列 的 长 度 定义 为 


Z 一 | 
L(£|s) JI nz, ~na lb S Iln ~ns, lb (1) 
t=] 


其 路 此 表示 2 范 数 ，llm-m 此 表示 最 后 服务 的 客户 市 点 到 车 
场 的 距离 。 本 文 的 图 -注意 力 模 型 为 MDVRP 算 例 s 定 义 了 一 
个 随机 策略 pêl) 。 基 于 链 式 概 紊 法则， 序列 z 的 选择 概率 
可 以 基于 图 -注意 模型 的 参数 集合 0 计算 : 


po (2|s) | [vo (ĉ ls; 2... Vt <t). (2) 
t=1 


Zi fid AE AT PUE 88 ANTT E31] R 8 TE G 3 RA 91 re ERE o 


fE s s T a 03 s ES] Ay HH TE 8E — 1 EST T] 2 D t XE — T 
M p^ 458] NC ES BUSEPU ê 。 


2. MDVRP 的 马尔 可 夫 决 策 过 程 定 义 


本 节 对 MDVRP 的 马尔 可 夫 诀 策 过 程 (Markov decision 
process, MDP) 进 行 建 模 ， 其 中 包括 对 状态 、 动 作 和 收益 的 定义 : 

a) 状态 : 在 时 间 步 又 上:， 状 态 由 已 访问 的 节点 所 构成 的 
子 图 G'(G' SG=(V,E,W)) 表示 。 

b) 动作 : 在 时 间 步 又 +， 动 作 是 未 进行 服务 的 客户 节点 
或 车 场 节 点 。 

c) 收益 : 本 文 的 优化 目标 是 最 小 化 车 辆 的 行驶 距离 
L(Z£|s)) 。 首 先 计 算 时 间 步 又 1 到 时 间 步 又 t+1 所 访问 的 两 个 
节点 的 距离 (lm-mlb)， 然 后 将 智能 体 的 即时 收益 定义 为 : 
- lins -nab( 强 化 学 习 的 目标 是 最 大 化 收益 ， 因 此 取 负 值 )。 


3 ”参数 化 强化 学 习 智能 体 行为 策略 网 络 


3.1 编码 器 
编码 费 将 图 G=(V,E,W) 作为 输入 ， 其 结构 如 图 2 所 示 。 


输入 节 扣 特征 为 %n， 输 入 边 的 特征 为 欧 氏 距离 6 ijetb.…m} 。 


上 述 两 个 特征 分 别 通过 全 连接 的 层 (图 2 中 的 FC RA 
(embedding) F! 4. 4I 4. 维特 征 中 ， 然 后 被 送 入 RE-GAT 进行 
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编码 。 式 (3) 和 (4) 分 别 摘 述 了 节点 和 边 的 舱 入 过 程 。 

x? = BN (Aon, - b, ).i € {1,...,m} (3) 

é; - BN(Ae; tb). i, j €(L...,m] (4) 


其 中 : 4 和 AZ ez IL 5E 2] BC EE, bo A b. TARR 
nf 5e 2] RW] PX E qn] E, BN() 表示 批 归 一 化 (batch 


normalization)?! , 
NA | Cao | Hu 
Embedding RSI 


y 5 5 Y 
Batch Normalization 


单 层 RE-GAT 
Lx 

Si 

[= 


Encoder 输出 


图 2 编码 器 整体 结构 
Fig.2 Encoder network structure 
本 文中 编码 器 包含 工 层 RE-GAT， 图 3 描述 了 单 层 RE- 
GAT 如 何 将 边 的 信息 集成 到 节点 信息 中 并 更 新 每 个 节点 的 
fs. TERI OO legbo) 层 中 节点 了 相对 于 
市 点 i 的 权重 系数 (注意 力 系 数 )， 其 中 je{l…,m) : 


exp(o(g" [WwW’ (xf? x7? 116;) ])) 


e 一 m (4-1) S (5) 
X7 explo(e" [W n.) 


其 中 O 表示 转 置 运 算 符 ， 小 表示 连接 操作 符 ，8g 和 本 :是 
可 学 习 的 权重 向 量 和 权重 矩阵 ，c(0) 是 LeakyReLU 激活 函 
数 。 图 2 展示 了 具有 多 层 RE-GAT 的 编码 器 模型 结构 。RE- 
GAT 的 每 一 层 通 过 式 (5) 和 和 (7) 描述 的 注意 机 制 更 新 每 个 节点 
的 特征 向 量 。 模 型 在 每 两 层 之 间 使 用 了 残 差 连接 (由 式 (0) 表 
示 )。 也 就 是 说 ， 第 4 层 的 输出 被 计算 为 


x 2 x9 e x02 « fL, (6) 
其 中 xx 由 式 (7) 计 算 所 得 。 
Xia 7 2 a Wix”, (7) 
ja 


其 中 : Wr 表示 可 学 习 的 权重 和 矩阵。 第 工 层 RE-GAT 输出 每 个 节 
点 的 最 终 钥 入 特征 问 量 xW 。 然 后 ， 用 它们 计算 最 终 的 图 散 入 问 
量 地 = 全，… 五 } 二 <R ， 对 于 每 个 节点 je 由 2…, d} 由 式 (8) 表 示 : 


1 m . 
x, DEP) joe, (8) 


3.2 解码 器 

在 解码 过 程 中 ， 解 码 器 基于 注意 力 机 制 生成 待 选择 市 点 
(所 有 车 场 和 客户 ) 的 概率 分 布 ， 即 每 个 节点 都 会 关联 一 个 概 
率 值 。 然 后 ， 通 过 掩 码 (下 文 将 详细 介绍 ) 机 制 来 处 理 相关 约 
束 ， 即 避免 重复 访问 已 服务 的 客户 节点 和 连续 两 次 选择 车 场 
闻 友 。 最 后 ， 搜 索 琐 略 基 于 所 输出 的 概率 分 布 进行 节 反 选择 ， 
如 信 梦 搜索 ( 信 新 地 选择 概率 最 大 的 节操 ) 或 采样 的 解码 策略 
(基于 概率 分 布 进行 采样 )。 调 度 中 心 的 选取 同样 适用 该 解码 
机 制 。 传 统 的 局 发 式 算 法 通常 采用 “ 先 分 组 后 规划 ”的 思想 的] 
求解 MDVRP， 人 存在 以 下 人 缺点:a) 不 同 分 组 各 目 规划 ,这 时 
SL; 2H. L [8] SEE PI K ER TEE FIR Rb) Je c Z1 12 P 2 RE 625 
XE AS Dog Y SETS USE BS C 25 rf] 47 2859 0] FE f E ia 38 e 2C 
域 知识 ， 人 为 选取 的 分 组 规则 很 难 达到 最 优 效 果 。 相 反 ， 深 度 


强化 学 习 乔 能 体能 够 通过 数据 驱动 的 方式 与 调度 环境 进行 交互 ， 
进而 不 断 更 新 进化 自 喘 策略 以 最 大 化 收 荔 ( 对 于 路 径 问 题 为 忆 
路 线 长 度 的 负 值 )。 即 在 本 文 的 解码 过 程 中 强化 学 习 策 略 选取 
调度 中 心 的 过 程 中 无 须 无 须 依 知人 为 启发 式 地 进行 干预 。 


图 3 边 和 市 点 信息 的 聚合 和 更 新 方式 
Fig.3 Edge and node fusion and update method 
本 文采 用 类 似 于 Transformer H RHR KER 


力 机 制 来 设计 针对 MDVRP 的 解码 器 。 与 原始 Transformer 
模型 的 结构 不 同 ， 本 文 所 设计 的 基于 多 头 注意 力 机 制 的 解码 
器 为 了 提升 计算 效率 只 包含 两 个 注意 力 子 层 ， 且 不 使 用 残 差 
连接 、 批 量 归 一 化 和 全 连接 层 网 络 。 第 一 层 通 过 多 头 注 意 机 
制 计 算 上 下 文 回 量 ， 第 二 层 输出 所 选 节点 的 概率 分 布 ， 并 基 
于 该 分 别 选择 节点 。 

解码 按 顺 序 进 行 ， 在 时 间 步 又 +， 首 先 利用 图 舱 入 癌 量 
x 、1-1 时 刻 选 择 的 节点 的 舱 入 回 量 和 和 车辆 的 剩余 容量 
计算 出 上 下 文 回 量 ef? : 
0) [X *W,G D1),t>1 
a im E 0) 
其 中 :W, 是 可 学 习 的 权重 矩阵 ， Di I D; 分别 表示 两 个 解码 
步骤 车 辆 的 剩余 容量 。 其 中 D, 的 更 新 公式 如 下 : 

5-| D,-ó; ,Ketl...,m} | (10) 
D 4, 20 

解码 器 第 一 层 的 输入 是 上 下 文 同 量 cr? ， 该 层 产生 新 的 
上 下 文 向 量 o" 。 特 别 地 ， 该 上 下 文 向 量 是 通过 一 个 多 头 ( 豆 
头 ) 注 意 力 机 制 获得 的 。 式 (11) 描 述 了 多 头 注 意 力 机 制 ， 通 过 
编码 堪 输 出 的 节点 的 从 入 辐 量 和 上 下 文 向 量 ef? 来 分 别 计算 
SEHE k eR^, füp]&g v,eR^, frifffjtqeR^: 

q-W9c?, y, ZWVx(?, k, -WKx(, 

i € (L2,---, m]. (11) 

W? e R^. 和 Wr e ^*^ (d, d,/ H) 都 是 可 学 


其 中 : WK eme, 
习 的 权重 矩阵 。 
本 文 使 用 上 下 文 向 量 eP 来 计算 每 个 查询 向 量 9 。 然 后 ， 
利用 编码 器 输出 的 节点 嵌入 向 量 区 ，ist2… 双 计算 键 向 
E kfk) RUE E v m pw) 。 并 利用 查询 向 量 4 和 键 
[5] k = (ee 计算 第 一 解码 层 的 注意 系数 由 <Rict : 


—o,if iz (Vt «t)or ô > Dj, 


u® = ort=l or 72,,€1L...k] . (12) 
T 
CE , otherwise. 
vd, 


Æ SCOBLISETÉE 3 (mask) KIE 6, E Ei Xe ETE e. FAR 
余 容 量 不 满足 该 客户 节点 和 连续 两 次 选择 车 场 节点 ( 即 在 
1 一 1 时 刻 选择 车 场 节 点 ĝa et 人 1…k} )。 具 体 地 ， 在 式 (12) 中 ， 
通过 将 上 述 情况 的 注意 力 系 数 设 置 为 -% 来 措 码 。 然 后 使 用 
式 (13) 通 过 Softmax 激活 函数 将 注意 力 系 数 ww 归 一 化 : 


TA = sofimax (ul ),i e {1,…,m} (13) 
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其 次 ， 根 据 式 (14) 计 算 第 h (hse{1…, 有 HH} 头 归 一 化 注意 
力 系 数 如 》， 其 中 1<ism 。 然 后 将 每 个 尖 计 算出 的 癌 量 囊 联 
起 来 ， 并 通过 全 连接 层 计算 得 到 最 终 的 上 下 文 网 量 o: 


e =W; fe SaD) (14) 
i-l 


其 中 :W 是 可 学 习 的 权重 和 矩阵。 该 多 头 注意 机 制 有 助 于 提高 
注意 力学 习 过 程 的 稳定 性 B31。 

第 二 层 解 码 器 基于 单 尖 注意 力 机 制 ， 其 输入 是 上 下 文 问 
量 史 。 然 后 利用 式 (15) 计 算 第 二 解码 层 在 1 时 刻 的 注意 系数 
wr eRie(l.m 。 基 于 Bello 等 的 工作 PI， 采用 tanh 激活 函数 
将 该 系数 截断 在 上 cc] 内 (本 文选 取 C=10 )。 然 后 通过 式 (16) 
采用 Softmax 激活 函数 获得 每 个 节点 的 选择 概率 Du, 


i €(L,...m] ; 


EH 1 


—o,if i + Z,(Vt «t)or ô > D, or 


ue t-lor £,,€(L...k] , (15) 
(DT 
C- ann ŽE | ,Otherwise 
Di = Po lî, |S, 2, ,YI <1)=sofimax (ul ). (16) 


最 后 ， 根 据 策 略 概 率 分 布 的 p;, ， 使 用 采样 或 贪 禁 解码 (将 
在 下 文 介绍 ) 来 预测 下 一 个 要 访问 的 节点 (车 场 或 客户 节点 )。 
4 基于 策略 梯度 的 深度 强化 学 习 算法 

本 文 引入 改进 的 REINFORCE 算法 来 训练 所 提出 的 模型 。 
H d Uno; X 4g X y Los(0s)-EL,a4[L(25) 。 该 改进 
REINFORCE 算法 具有 actor-critic 风格 ， 但 又 与 传统 地 将 状 
zx fr feb v E RUE N critic 不 同 。 与 该 算法 的 原始 版 本 相 比 ， 
本 文 所 实现 的 版 本 添加 了 Rollout 基线 方法 局， 以 加 速算 法 收敛 
速度 以 及 增强 优化 性 能 。 其 损失 函数 的 梯度 计算 过 程 如 下 : 


VeLoss(bly)= 卫 ;wan[( 忆 (到 |) 一 2)Vologpe (2 |s)]. (17) 


输入 训练 数据 


采样 解码 仙 禁 解码 
Actor 3 


EE 


将 Actor 参 
数 复制 给 
基线 Actor 


图 
XE 
输出 Actor 的 参数 


图 4 A REINFORCE 算法 流程 框图 
Fig.4 Improvement reinforce algorithm process block diagram 
在 所 提出 的 具有 Rollout 基线 版 本 的 REINFORCE 算法 
中 ，critic 网 络 被 基线 actor 所 取代 。 该 算法 的 流程 框图 如 图 
4 所 示 。 算 法 可 以 描述 为 具有 两 个 actor 的 结构 ， 基 线 actor 
的 策略 网 络 To ( 90Y 为 参数 集合 ) 在 每 个 epoch 内 被 固定 ( 即 
其 参数 不 进行 更 新 )， 该 全 略 类 似 于 DDQNE5 中 国定 目标 Q- 
网 络 。 在 每 个 epoch 结束 时 ， 使 用 仿 禁 解码 来 比较 当前 训练 
actor 和 基线 actor 的 结果 。 然 后 ， 基 线 actor WHA 928 I] 25 2 
只 有 在 测试 算 例 上 具有 显著 提升 (对 其 进行 1 检验 ， 显 车 性 水 
平 a=5% ) 才 会 进行 更 新 。 在 训练 过 程 中 ， 本 文 还 采用 “代码 
级 优化 ”的 策略 对 该 算法 进行 改进 ， 包 括 Adam 优化 器 的 学 
习 率 衰减 和 奖励 函数 的 归 一 化 ， 提 高 了 该 算法 的 性 能 。 
有 效 的 组 合 优 化 搜索 算法 主要 包括 束 波 搜 索 、 邻 域 搜 索 
和 树 搜索 。Bello 等 捕 : 提 出 了 诸如 采样 、 贪 梦 搜 索 和 主动 搜 
索 等 搜索 策略 。 本 文 使 用 了 以 下 两 种 解码 策略 。 


a) 贫 柳 解码 : 一 般 来 说 ， 信 焚 算 法 构造 局 部 最 优 解 并 


A A 


提供 全 局 最 优 解 的 快速 近似 值 。 在 每 个 解码 步骤 中 ， 贪 柳 地 
选择 概率 最 高 的 节点 ， 当 所 有 节点 的 要 求 都 被 满足 时 ， 即 搜 
索 终 止 ， 从 而 构造 出 有 效 解 。 

b) 随机 采样 : 在 每 个 解码 时 间 步 又 上 ， 随 机 策略 
Po (f |s.£, VE <t) 根据 概率 分 布 随机 选择 节点 来 构造 有 效 解 。 
在 测试 过 程 中 ，Bello 等 (中 利用 温度 超 参 数 4s 了 对 式 (10) 进 
行 修正 ， 以 保证 采样 的 多 样 性 。 修 改 后 的 公式 如 下 : 


Q) 
3 


Dis = p, (万 ls. , wet) -sofomen| 


(18) 


^p, $: 基于 End-to-end 深度 强化 学 习 的 多 车 场 车 辆 路 径 优化 


通过 对 温度 超 参数 的 网 格 搜 索 ， 友 现 温 度 值 分 别 为 2.5、 


1.8、1.2 时 对 于 MDVRP20( 客 户 节 点 数 为 20)、MDVRP50 和 
MDVRP100 效果 最 好 。 

在 训练 过 程 中 ， 通 常 需 要 模型 探索 环境 以 获得 更 好 的 模 
型 性 能 ， 因 此 采用 随机 采样 的 解码 策略 。 而 在 测试 过 程 中 ， 
本 文 使 用 了 贪 梦 解 码 策略 。 此 外 ， 根 据 现 有 的 研究 的 测试 方 
法 BC ， 本 文 还 采用 随机 采样 的 方法 求 得 了 1280 个 解决 方 
案 并 报告 其 最 好 的 一 个 。 


5 算 实 验 


计算 实 
本 节 通 过 实验 验证 所 提出 框架 的 可 行 性 和 有 效 性 。 实 验 
包括 训练 和 测试 两 个 部 分 ， 由 于 训练 需要 大 量 数据 ， 因 此 训 
练 数据 由 均匀 分 布 随机 产生 。 测 试 数据 集 包 括 随 机 生成 的 算 
例 和 公开 的 标准 算 例 (Cordeau 等 提出 B”»56]) 其 分 别 用 于 测试 
所 提出 框架 的 有 效 性 和 泛 化 性 能 。 此 外 本 文 还 将 所 提出 的 框 
架 与 其 他 Learning-based 的 方法 、Google OR-tools 和 元 局 发 
式 算法 进行 了 比较 。 
5.1 数据 集 与 超 参数 的 选择 

为 提高 可 读 性 ， 本 文 将 MDVRP 的 规模 以 “客户 数 -车 场 
数 ” 的 格式 表示 。 本 文 所 用 到 的 数据 集 包 括 随机 生成 的 训练 
数据 、 验 证 数据 和 随机 测试 数据 。 分 别针 对 规模 20-2. 50-2 


表 3 所 提出 的 框架 、 
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和 100-2 MÆ E 77 [0.1] x [0.1] rH BB LAE E; MDVRP 算 例 。 并 
分 别 为 20-2 的 训练 集 生 成 了 819 200 个 算 例 ， 为 50-2 和 100- 
2 的 训练 集 生 成 了 768 000 个 算 例 ， 且 每 个 模型 训练 100 个 
Epoch。 对 于 验证 数据 和 随机 测试 数据 ， 使 用 与 训练 数据 相 
同 的 分 布 ， 分 别 为 每 个 规模 生成 10 000 个 算 例 。 此 外 ， 本 
文 还 采用 公开 的 标准 算 例 (Cordeau 等 提出 55 39) 来 评估 所 提 
出 的 模型 由 随机 生成 的 算 例 训练 到 真实 世界 算 例 测试 的 泛 化 
性 能 以 及 测试 不 同 规模 算 例 (不 同 数 量 的 车 场 以 及 客户 ) 的 泛 
化 性 能 。 所 有 实验 在 具有 一 块 Turbo HT (100W) DDR4-2400 
CPU 和 一 块 Nvidia GeForce RTX 3090 GPU 的 计算 机 上 进行 。 
x 2 列 出 了 训练 过 程 的 其 他 相关 超 参 数 的 值 。 本 文 的 模型 由 
PyTorch 构造 ， 并 用 Python 3.7 进行 实现 。 


表 2 超 参 数 选 值 
Tab.2 Value of hyper-parameters 
超 参 数 值 
A 5 d L 4 
5E 2] XE SE C B 0.96 
"- 1x10? (m = 20) 
Sete 3x107 (m — 50,100) 
BKE JIWA Z H 8 
TARE I UN EK d 128 
341 BR f S CAN EK d 16 
优化 器 Adam!” 
5.2 计算 结果 分 析 


5.2.1 随机 算 例 分 析 

表 3 列 出 了 所 提 框 架 ( 根 据 解 码 傈 上 略 的 不 同 由 “Greedy”、 
“Sampling128” 和 “Sampling1280” 表 示 )、Google OR-tools 和 
其 他 基于 DRL 的 方法 中 在 不 同 规模 随机 生成 的 MDVRP 上 
的 测试 结果 。 该 表 中 距离 ( 越 小 越 好 ) 和 相对 最 优 Gap 值 为 10 
000 个 算 例 的 平均 值 。 此 外 ， 还 给 出 了 所 有 测试 算 例 的 平均 
运算 时 间 。 


其 他 强化 学 习 方法 和 Google OR-tools 的 随机 算 例 计算 结果 


Tab.3 Results of the proposed framework, a reinforcement learning method and Google OR -tools on random generated MDVRP instances 


MDVRP20-2 MDVRP50-2 MDVRP100-2 
JE 类 型 了 x ER : 

距离 Gap 值 时 间 距离 — Gap fü 时 间 距离 Gap 值 时 间 
Greedy] RL, G - - 15.62 13.68% 43.9 ms 
Greedy ($X) RL, G 5.35 1.71% 0.2 ms 9.40 4.56% 0.7 ms 14.46 5.24% 1.8 ms 
OR-tools H, S 5.65 7.41% 0.18 ms 9.73 8.23% 1.02 ms 14.99 9.10% 3.6 ms 
Sampling128P?! RL, S 15.07 9.6896 5.68 s 
Sampling128 (本 文 ) RL,S 5.33 1.33% 19 ms 9.27 3.12% 0.07 s 14.34 4.36% 0.21 s 
Sampling1280 ($X) RL,S 5.26 0.00% 91 ms 8.99 0.00% 0.46 s 13.74 0.00% 1.58 s 


由 该 表 可 以 看 出 ， 采 样 解码 策略 能 够 获得 所 有 方法 给 出 
结果 的 最 好 解 。 访 策略 对 每 个 算 例 都 执行 128 或 1280 次 采 
样 ， 即 构造 128 或 1280 个 解 并 报告 最 好 的 一 个 。 相 反 ， 贫 
梦 解 码 策 略 仅 通 过 训练 后 的 模型 在 每 次 解码 过 程 中 贷 禁 的 选 
择 具 有 最 高 概率 的 节点 以 构造 单个 解 。 此 外 ， 基 于 神经 网 络 
的 并 行 计算 可 以 对 多 个 算 例 进行 批 处 理 ， 这 使 得 训练 后 的 模 
型 以 贫 禁 解码 的 方式 具有 极 快 的 求解 速度 。 例 如 ， 对 于 规模 
为 100-2 的 10000 个 MDVRP 算 例 ， 所 提出 的 方法 以 贪 禁 解 
码 的 方式 求解 单个 算 例 只 需要 1.8 ms， 而 采样 的 解码 方式 需 
要 1.58 s, 

Google OR-tools 是 基于 局 部 搜索 的 高 效 求解 器 ， 文 献 
[23] 是 深度 强化 学 习 方 法 。 然 而 ， 在 所 有 规模 的 MDVRP 问 
题 上 ， 上 所 提出 的 框架 无 论 采 用 贪 禁 解码 还 是 采样 解码 的 方式 
都 优 于 OR-tools 和 文献 [23] 所 提出 强化 学 习 方 法 ， 且 贫 禁 解 
码 方式 在 运行 时 间 上 也 要 远 优 于 这 两 种 方法 。 此 外 ， 图 5 展 


示 了 训练 过 程 中 各 规模 MDVRP 的 收敛 曲线 ， 可 以 看 出 各 规 
模 的 算 例 训练 过 程 中 在 80 个 Epoch 后 都 能 很 好 地 收敛。 
5.2.2 公开 算 例 分 析 

为 评估 所 提出 框架 从 随机 生成 的 算 例 泛 化 到 真实 世界 算 
例 以 及 泛 化 到 不 同 规模 ( 即 不 同 客户 和 车 场 数 ) 的 性 能 ， 本 节 
将 训练 后 的 模型 (通过 随机 生成 的 规模 为 100-2 的 MDVRP SE 
例 进行 训练 ) 用 于 求解 Cordeau 等 B5356] 针 对 MDVRP 提出 的 
公开 标准 算 例 (客户 数 50-160)， 所 有 结果 均 列 在 表 4 中。 此 
外 ， 为 进一步 评估 所 提出 框架 的 性 能 ， 还 与 最 先进 的 元 启发 
式 算法 (改进 ACOB31) 进 行 比 较 ， 其 结果 同样 列 在 表 4 中。 两 
种 方法 的 Gap 值 均 基 于 已 知 最 好 的 解 (best known solutions, 
BKS) 求 得 。 

由 表 4 可 以 看 出 ， 虽 然 改 进 ACO 算法 在 大 部 分 算 例 上 
优 于 本 文 所 提出 的 框架 ， 且 其 平均 Gap 值 也 更 优 (1.98% vs. 
4.97%)。 但 该 改进 ACO 方法 的 结果 是 针对 每 个 算 例 单独 执 
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ÍT 100 次 并 报告 最 好 的 一 个 ， 衣 中 时 间 为 平均 时 间 。 相 反 ， 
本 文 所 提出 的 框 染 采 用 贫 柳 解码 的 集 略 对 每 个 算 例 进行 单 次 
求解 。 本 文 所 提出 的 框架 在 运行 时 间 上 要 远 远 优 于 该 改进 


12.5 


ACO 算法 FI(0.09 s vs. 51.59 S)。 因 此 ， 本 文 所 提出 的 框架 在 
该 数据 集 的 求解 质量 和 运行 时 间 上 较为 均衡 。 此 外 ， 上 所 提出 
的 框架 可 以 作为 一 种 线 下 训练 线 上 测试 使 用 的 实时 求解 框架 。 


12.0 


11.5 
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图 5 各 规模 MDVRP 训练 过 程 收敛 曲线 


Fig.5 | Convergence curve of MDVRP with different scales in training process 

上 的 有 效 性 。 不 同 规模 的 CVRP 算 例 的 测试 结果 列 于 表 5 中 。 
表 中 所 列 出 的 结果 根据 其 求解 方法 的 属性 可 以 分 为 三 个 大 类 ， 
包括 求解 右 、 贫 柳 方 法 和 采样 /搜索 方法 。 除 了 所 提出 模型 
的 结 末 ， 该 表 的 其 他 结果 均 取 目 Kool S, ARANE REA 
面 ， 所 提出 的 框架 无 论 是 采样 还 是 贫 柳 解码 策略 的 结 有 果 都 要 
优 于 其 他 所 列 出 的 基于 学 习 的 方法 。 其 结果 说 明了 所 提出 的 
框架 在 单车 场 CVRP 场景 下 仍然 具有 较 好 的 泛 化 性 能 。 同 时 ， 
验证 了 该 模型 具有 迁移 到 其 他 场景 VRP 的 潜力 。 


5.2.3 拓展 计算 分 析 (CVRP) 

为 进一步 评估 所 提出 框架 对 于 不 同 场景 车 辆 路 径 问 题 的 
求解 性 能 及 泛 化 能 力 ， 将 所 提出 的 框架 用 于 求解 单车 场 的 
CVRP。 本 节 采 用 随机 算 例 进行 实验 验证 ， 即 由 均匀 分 布 随 
机 生成 10 000 个 算 例 (与 文献 [8]49 保 持 一 致 )。 并 通过 与 现 有 
的 Learning-based 方法 ( 表 5 种 “PtrNet* 和 “AM”* 都 是 基于 深度 
强化 学 习 的 方法 )、Google OR-tools、Gurobi 精确 求解 器 和 
LKH3 求解 器 进行 对 比 ， 来 验证 所 提出 框架 在 单车 场 CVRP 


表 4 所 提出 方法 和 改进 ACO 的 结果 
Tab.4 Results ofthe proposed framework and improved ACO on benchmarks 


内 求解 。 


No 问题 客户 数 。 车 场 数 BSK ps 
距离 Gap 值 时 间 距离 Gap 值 平均 时 间 
1 p01 50 4 576.87 633.47 9.81% 0.06 s 607.66 5.34% 1.7 s 
2 p02 50 4 473.53 493.34 4.18% 0.06 s 495.34 4.61% 1.8 s 
3 p03 75 5 641.19 683.71 6.63% 0.09 s 670.82 4.62% 4.3s 
4 p04 100 2 1001.59 1104.65 10.28% 0.10 s 1021.36 1.97% 28.4 s 
5 p05 100 2 750.03 809.79 7.96% 0.10 s 750.72 0.09% 25.6 s 
6 p06 100 3 876.50 961.77 9.72% 0.09 s 902.91 3.01% 31.9 s 
7 p07 100 4 885.80 980.08 10.6496 0.09 s 907.55 2.46% 30.9 s 
8 p12 80 2 1318.95 1329.82 0.82% 0.04 s 1318.95 0.00% 15.4 s 
9 p13 80 2 1318.95 1329.82 0.82% 0.04 s 1318.95 0.00% 16.0 s 
10 pl4 80 2 1360.12 1360.12 0.00% 0.04 s 1365.69 0.4196 16.9 s 
11 p15 160 4 2505.42 2586.66 3.24% 0.15 s 2554.12 1.94% 167.1 s 
12 p16 160 4 2572.23 2586.66 0.56% 0.15 s 2606.22 1.3296 188.1 s 
13 p17 160 4 2709.09 2709.09 0.00% 0.15 s 2709.09 0.00% 147.3 s 
平均 值 4.97% 0.09 s 1.98% 51.59 s 
表 5 不 同方 法 在 各 规模 CVRP 上 的 结 
Tab.5 Results of different methods on random generated CVRP instances 
VRP20 VRP50 VRP100 
T 类 型 zt TT z TET z Tee 
距离 Gap 值 总 时 间 距离 Gap 值 总 时 间 距离 Gap 值 总 时 间 
Gurobi Solver 6.10 0.00% - - 
LKH3 Solver 6.14 0.58% 7.2 ms 10.38 0.00% 25.2 ms 15.65 0.00% 46.8 ms 
PtrNet [6] RL, G 6.59 8.03% 11.39 9.78% 17.23 10.12% 
AM PI RL, G 6.40 4.97% 0.1 ms 10.98 5.86% 0.3 ms 16.80 7.34% 0.8 ms 
Greedy RL, G 6.26 2.6% 0.2 ms 10.88 4.81% 0.7 ms 16.69 6.68% 1.7ms 
OR Tools H, S 6.43 5.41% 11.31 9.01% 17.16 9.67% 
PtrNet 6l SL, BS 6.40 4.92% 11.15 7.46% 16.96 8.39% 
AM Ei RL, S 6.25 2.49% 36 ms 10.62 2.40% 0.17 s 16.23 3.72% 0.72 s 
Sampling RL, S 6.19 1.47% 84 ms 10.54 1.54% 0.44 s 16.16 3.25% 1.55 s 
注 : 在 类 型 列 中 ，RL: 强化 学 习 方 法 、H: 启 发 式 方法 、SL: 监督 学 习 、S: 采样 /搜索 、G: 贪 禁 搜 索 、BS: 束 波 搜索 “-”: 不 能 在 合理 时 间 


5.2.4 框架 计算 时 间 复 杂 度 分 析 

该 框架 通过 线 下 训练 和 线 上 测试 的 方式 来 求解 路 径 问题 。 
接 下 来 ， 通 过 对 TSP 问题 的 求解 (大 多 数 文 献 [7]683 通 过 求解 
TSP 来 分 析 时 间 复 杂 度 ， 为 了 便于 与 文献 中 的 方法 进行 比较 ， 
本 文 也 通过 TSP 进行 评估 ) 来 评估 所 提出 模型 在 训练 和 测试 
阶段 随 图 规模 ( 即 节点 数 ) 增 大 和 运行 时 间 的 关系 。 本 节 采 用 
的 所 有 算 例 均 由 均匀 分 布 随机 生成 (与 文献 [7]031 保 持 一 致 )。 
对 于 训练 阶段 ， 训 练 时 间 不 仅 取决 于 问题 的 图 规模 ， 还 取决 
于 训练 数据 的 数量 和 批量 大 小 。 为 不 失 一 般 性 ， 这 里 用 10 
000 个 训练 实例 和 相同 的 批量 大 小 (批量 大 小 为 128) 测 试 了 单 
个 epoch 内 节点 数 从 1 增加 到 100 实例 的 运行 时 间 。 图 6 (a) 
显示 了 所 提出 的 框架 在 训练 阶段 的 运行 时 间 随 图 节点 增长 呈 
线性 增长 。 

在 测试 阶段 ， 测 试 了 图 规模 (市 点 数 ) 从 1 增加 到 500 时 ， 
整个 编码 需 - 解 公 右 露 模型 的 运行 时 间 。 图 6 (b) 显 示 了 上 所 提 
出 的 模型 在 测试 阶段 的 运行 时 间 随 图 规模 (节点 数 ) 的 增加 呈 
线性 增长 。 表 6 总 结 了 几 类 方法 包括 精确 算法 、 局 发 式 算法 
和 基于 学 习 的 方法 在 规模 为 100 个 节点 的 TSP 上 的 运行 时 间 
复杂 度 、 运 行 时 间 ( 平 均值 ) 和 平均 最 优 解 间 距 。 除 了 所 提出 
的 框架 的 结果 以 外 ， 所 有 的 结果 都 取 自 Drori 等 0 引 的 表 1。 
所 提出 框架 的 结果 以 粗 体 列 出 。 精 确 算法 、 近 似 算法 、 启 发 
式 算法 的 运行 时 间 在 图 规模 上 至 少 呈 平方 增长 ，S2V-DQNI7 
是 强化 学 习 方 法 ， 运 行 时 间 复 杂 度 分 别 为 202) ， 且 具有 较 
大 的 最 优 解 间距 (为 8.4%)， 本 文 所 提出 的 框架 的 运行 时 间 复 
ZR BE O(n), ， 在 运行 时 间 和 最 优 解 间距 上 都 有 较 大 的 提升 。 
GATI31 与 所 提出 的 框架 都 具有 相同 的 运行 时 间 复 杂 度 但 其 
最 优 解 间 距 更 大 。 

表 6 各 方法 的 运行 时 间 复 杂 度 


Tab.6 Running time complexity of each method 


Zhi As 4T ES] IR] ed ERE 运行 时 间 CER) Gap 值 
Gurobi NA 3, 220 ms 0.0% 
Concorde NA 254.1 ms 0.0% 
Christofifides O(n?) 5, 002 ms 2.9% 
LKH O(n?) 2, 879 ms 0.0% 
2-opt O(n?) 30.08 ms 9.7% 
Farthest O(n?) 8.35 ms 7.5% 
Nearest O(n?) 9.35 ms 24.5% 
S2V-DQN"! O(n?) 61.72 ms 8.4% 
GATI?! O(n) 1.17 ms 7.4% 
Greedy O(n) 1.06 ms 3.7% 


6 ”结束 语 


本 文 提出 了 端 到 端的 深度 强化 学 习 框 架 用 于 提升 
MDVRP 的 求解 效率 。 为 MDVRP 建 模 了 蕊 尔 可 夫 决 策 过 程 ， 
设计 了 改进 图 注意 力 网 络 作为 编码 器 对 求解 过 程 中 的 状态 信 
恩 进 行 编码 ， 还 基于 Transformer 模型 设计 了 解码 器 模型 。 
为 训练 所 提出 的 编码 器 -解码 器 模型 ， 设 计 了 改进 
REINFORCE 算法 用 于 。 此 外 ， 所 设计 的 框架 不 受 问 题 规 模 
的 约束 ， 一 旦 模型 完成 训练 就 可 以 应 用 于 不 同 规模 的 算 例 问 
题 (不 同 的 客户 数 和 车 场 数 )。 为 验证 所 提出 框架 的 可 行 性 和 
有 效 性 ， 通 过 随机 生成 的 算 例 和 公开 标准 算 例 进行 了 数值 实 
验 ， 并 与 现 有 的 Learning-based 方法 、Google OR-tools,. 76 
启发 式 算 法 进行 对 比 。 计 算 结 果 表 明 所 提出 的 框架 对 于 求解 
不 同 规模 及 不 同 场景 下 的 车 辆 路 径 问 题 具 有 可 行 性 和 高 效 性 。 

本 文 考 虑 了 静态 环境 下 的 MDVRP， 而 在 实际 的 物流 运 
输 过 程 中 ， 运 输 环 境 通 党 是 瞬息万变 地 ， 即 会 面临 订单 动态 
到 达 的 情况 。 基 于 本 文 所 提出 框架 求解 该 问题 的 快速 性 ， 其 
具有 在 动态 环境 下 进行 实时 调度 车 辆 的 潜力 。 因 此 ， 未 来 的 
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Fig. 6 Running time complexity analysis of the proposed framework 
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